Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
Iterative text revision improves text quality by fixing grammatical errors, rephrasing for better readability or contextual appropriateness, or reorganizing sentence structures throughout a document. Most recent research has focused on understanding and classifying different types of edits in the iterative revision process from human-written text instead of building accurate and robust systems for iterative text revision. In this work, we aim to build an end-to-end text revision system that can iteratively generate helpful edits by explicitly detecting editable spans (where-to-edit) with their corresponding edit intents and then instructing a revision model to revise the detected edit spans. Leveraging datasets from other related text editing NLP tasks, combined with the specification of editable spans, leads our system to more accurately model the process of iterative text refinement, as evidenced by empirical results and human evaluations. Our system significantly outperforms previous baselines on our text revision tasks and other standard text revision tasks, including grammatical error correction, text simplification, sentence fusion, and style transfer. Through extensive qualitative and quantitative analysis, we make vital connections between edit intentions and writing quality, and better computational modeling of iterative text revisions.
translated by 谷歌翻译
精确地重建由单个图像的各种姿势和服装引起的精确复杂的人类几何形状非常具有挑战性。最近,基于像素对齐的隐式函数(PIFU)的作品已迈出了一步,并在基于图像的3D人数数字化上实现了最先进的保真度。但是,PIFU的培训在很大程度上取决于昂贵且有限的3D地面真相数据(即合成数据),从而阻碍了其对更多样化的现实世界图像的概括。在这项工作中,我们提出了一个名为selfpifu的端到端自我监督的网络,以利用丰富和多样化的野外图像,在对无约束的内部图像进行测试时,在很大程度上改善了重建。 SelfPifu的核心是深度引导的体积/表面感知的签名距离领域(SDF)学习,它可以自欺欺人地学习PIFU,而无需访问GT网格。整个框架由普通估计器,深度估计器和基于SDF的PIFU组成,并在训练过程中更好地利用了额外的深度GT。广泛的实验证明了我们自我监督框架的有效性以及使用深度作为输入的优越性。在合成数据上,与PIFUHD相比,我们的交叉点(IOU)达到93.5%,高18%。对于野外图像,我们对重建结果进行用户研究,与其他最先进的方法相比,我们的结果的选择率超过68%。
translated by 谷歌翻译
如今,收集来自不同环境的特征和响应对的观察已经变得越来越普遍。结果,由于分布变化,必须将学习的预测变量应用于具有不同分布的数据。一种原则性的方法是采用结构性因果模型来描述培训和测试模型,遵循不变性原则,该原理说响应的条件分布鉴于其预测因素在整个环境中保持不变。但是,当响应干预时,在实际情况下可能会违反该原则。一个自然的问题是,是否仍然可以识别其他形式的不变性来促进在看不见的环境中的预测。为了阐明这种具有挑战性的情况,我们引入了不变的匹配属性(IMP),这是通过附加功能捕获干预措施的明确关系。这导致了一种替代形式的不变性形式,该形式能够对响应进行统一的一般干预措施。我们在离散环境设置和连续环境设置下分析了我们方法的渐近概括误差,在该设置中,通过将其与半磁头变化的系数模型相关联来处理连续情况。我们提出的算法与各种实验环境中的现有方法相比表现出竞争性能。
translated by 谷歌翻译
作为一个与现实世界互动的虚拟世界,元媒体封装了我们对下一代互联网的期望,同时带来了新的关键绩效指标(KPIS)。常规的超级可靠和低延迟通信(URLLC)可以满足绝大多数客观服务KPI,但是很难为用户提供个性化的荟萃服务体验。由于提高经验质量(QOE)可以被视为当务之急的KPI,因此URLLC朝向下一代URLLC(XURLLC),以支持基于图形技术的荟萃分析。通过将更多资源分配给用户更感兴趣的虚拟对象,可以实现更高的QoE。在本文中,我们研究了元服务提供商(MSP)和网络基础架构提供商(INP)之间的相互作用,以部署Metaverse Xurllc服务。提供了最佳合同设计框架。具体而言,将最大化的MSP的实用程序定义为元用户的QOE的函数,同时确保INP的激励措施。为了建模Metaverse Xurllc服务的Qoe,我们提出了一个名为Meta Immersion的新颖指标,该指标既包含了客观网络KPI和元用户的主观感觉。使用用户对象注意级别(UOAL)数据集,我们开发并验证了注意力吸引人的渲染能力分配方案以改善QOE。结果表明,与常规的URLLC相比,Xurllc平均提高了20.1%的QoE改善。当总资源有限时,QoE改进的比例较高,例如40%。
translated by 谷歌翻译
在支持计算和通信技术的支持下,元评估有望为用户带来前所未有的服务体验。但是,元用户数量的增加对网络资源的需求量很大,尤其是用于基于图形扩展现实并需要渲染大量虚拟对象的荟萃分析服务。为了有效利用网络资源并改善体验质量(QOE),我们设计了一个注意力吸引网络资源分配方案,以实现定制的元评估服务。目的是将更多的网络资源分配给用户更感兴趣的虚拟对象。我们首先讨论与荟萃服务有关的几种关键技术,包括QOE分析,眼睛跟踪和远程渲染。然后,我们查看现有的数据集,并提出用户对象注意级别(UOAL)数据集,该数据集包含30个用户对1,000张图像中96个对象的地面意义。提供有关如何使用UOAL的教程。在UOAL的帮助下,我们提出了一种注意力感知的网络资源分配算法,该算法有两个步骤,即注意力预测和QOE最大化。特别是,我们概述了两种类型的注意力预测方法的设计,即兴趣感知和时间感知预测。通过使用预测的用户对象 - 注意值,可以最佳分配边缘设备的渲染能力等网络资源以最大化QOE。最后,我们提出了与荟萃服务有关的有前途的研究指示。
translated by 谷歌翻译
分配概括的任务涉及在看不见的环境中对响应的可靠预测。结构性因果模型被证明可用于通过干预模型变化。受基本不变性原则的激励,通常假定响应的条件分布在整个环境之间保持相同。但是,当响应干预时,在实际情况下可能会违反此假设。在这项工作中,我们研究了一类具有中间响应的模型。我们通过将某些特征的估计值合并为其他预测因子来确定一种新型的不变性形式。有效地,我们表明这种不变性等同于具有使概括成为可能的确定性线性匹配。我们提供了线性匹配的明确表征,并在各种干预设置下介绍了我们的仿真结果。
translated by 谷歌翻译
修订是人类写作过程的重要组成部分。它往往是战略性的,适应性的,更重要的是迭代性质。尽管大型语言模型在文本修订任务上取得了成功,但它们仅限于非著作,单次修订。研究和评估大语言模型进行连续修订和与人类作家合作的能力是建立有效写作助手的关键一步。在这项工作中,我们提出了一个人类的迭代文本修订系统,阅读,修订,重复(R3),旨在通过阅读模型生成的修订和用户反馈,以最少的人为努力来实现高质量的文本修订,修改文件,重复人机相互作用。在R3中,文本修订模型为人类作家提供了文本编辑建议,他们可以接受或拒绝建议的编辑。然后将所接受的编辑纳入模型,以进行下次文档修订版。因此,作家可以通过与系统进行交互并仅接受/拒绝其建议的编辑来修改文档,直到文本修订模型停止进行进一步修订或达到预定义的最大修订数量。经验实验表明,R3可以在早期的修订深度与人类作家进行可比的接受率进行修订,并且人机相互作用可以通过更少的迭代和编辑来获得更高质量的修订。收集的人类模型交互数据集和系统代码可在\ url {https://github.com/vipulrraheja/iterater}中获得。我们的系统演示可在\ url {https://youtu.be/lk08tipeoae}上获得。
translated by 谷歌翻译
报告了基于小波的算法以提高语音清晰度以及完整数据集和结果的优化。通过多级离散小波变换,离散的语音信号分为频率子频段。在重组以形成演讲的修改版本之前,将各种收益应用于子兰信号。在保持总体信号能量不变的同时,调整了子带的收益,并使用Google语音到文本转录在各种背景干扰和模拟听力损失条件下进行语音清晰度得到了客观和定量的评估。一组通用的子带收益可以在高达4.8 dB的一系列噪声与信号比率上起作用。对于无噪声的语音,通过将光谱能量重新分配给中频频带,总体可理解性得到提高,Google的转录精度平均提高了16.9个百分点,最大值提高了86.7个百分点。对于已经被噪声损坏的语音,提高清晰度是具有挑战性的,但仍然可以实现,而转录精度的平均为9.5个百分点,最高为71.4。所提出的算法可用于实时语音处理,并且比以前的算法更简单。潜在的应用包括语音增强,助听器,机器聆听以及对语音清晰度的更好理解。
translated by 谷歌翻译
近期和快速转变为大流行迅速的数字学习,也受到数字工具和平台无处不在的可用性的影响,使数字学习更加接近。扩展数字学习和教学中最困难的部分中的一个积分和一个是能够评估学习者的知识和能力。教育者可以录制讲座或创造数字内容,可以传递到数千名学习者,但评估学习者是非常耗时的。在本文中,我们提出了基于人工智能(AI)的解决方案,即VidVersityQG,用于自动从预先记录的视频讲座产生问题。基于从视频推断的上下文和语义信息,该解决方案可以自动生成不同类型的评估问题(包括短答案,多项选择,真/假并填写空白问题)。所提出的解决方案采用以人为本的方法,其中教师提供了修改/编辑任何AI生成的问题的能力。这种方法鼓励教师参与教育的使用和实施教育。评估了基于AI的解决方案,以便通过我们的行业合作伙伴Vidversity提供给我们的多个域名的经验丰富的教学专业人员和117名教育视频的准确性。 VidVersityQG解决方案显示有希望自动从视频产生高质量问题,从而大大减少了在手动问题中为教育工作者的时间和精力。
translated by 谷歌翻译